我们提出了一种新颖的方式来调节预验证的denoising扩散语音模型,以在训练期间看不见的新颖人的声音产生言语。该方法需要目标人的短(〜3秒)样本,并且在推理时间内产生,没有任何训练步骤。该方法的核心是采样过程,将denoising模型的估计与新扬声器样本的低通版本结合在一起。客观和主观评估表明,我们的抽样方法可以在频率方面产生与目标扬声器相似的声音,其准确性与最新方法相当,并且没有训练。
translated by 谷歌翻译
考虑了使用神经解码器进行错误校正代码的最大似然解码的问题。结果表明,通过在节点的激活上使用两个新颖的损失项可以改善神经解码器。第一个损失项对节点的激活施加了稀疏的约束。鉴于,第二个损失术语试图模仿一个具有更好性能的教师解码器的节点的激活。所提出的方法具有与神经信念传播解码器相同的运行时间复杂性和模型大小,同时将解码性能提高了BCH代码上的$ 1DB $。
translated by 谷歌翻译
我们为单个通道语音分离任务提供了上限,该任务是基于关于短段的性质的假设。使用界限,我们能够证明,尽管最近的方法对少数发言人取得了重大进展,但五名和十位扬声器的余地都有改进的余地。然后,我们引入了一个深神网络,即迭代地改善了不同的说话者的估计。在测试时,根据我们的分析产生的相互信息标准,SPEIT的每个测试样品具有不同的迭代次数。在一系列广泛的实验中,SEPIT的表现优于2、3、5和10扬声器的最新神经网络。
translated by 谷歌翻译
扩散概率方法用于最先进的图像生成。在这项工作中,我们介绍了一种用于扩展用于执行图像分割的模型的方法。该方法学习端到端,而不依赖于预先训练的骨干。通过对两个编码器的输出求和来合并输入图像中的信息和分段图的当前估计。然后使用额外的编码层和解码器来使用扩散模型来迭代地改进分割图。由于扩散模型是概率的,因此将其应用于多次并且结果被合并到最终分割图中。新方法在CityCapes验证集中获得最先进的结果,Vaihingen构建分段基准以及Monuseg数据集。
translated by 谷歌翻译
我们提出了一种生成钢琴音乐的MIDI文件的方法。该方法使用两个网络绘制右手和左手,左手在右手上调节。这样,在和谐之前产生旋律。MIDI以不变量的方式表示,以乐谱,旋律表示,为了调节和谐,通过每个杆的内容被视为弦。最后,基于此和弦表示,随机添加了Notes,以丰富生成的音频。我们的实验表现出对本领域的培训技术的显着改进,用于培训此类数据集,并证明每个新型组件的贡献。
translated by 谷歌翻译
在这项工作中,我们展示了一种新的神经机翻译方法(NMT),使用去噪扩散概率模型(DDPM),调整了文本数据,在该领域的最近进步之后。我们表明,可以使用在源句子上的扩散模型来无自动增加句子。我们还表明,我们的模型能够在培训期间无奈的语言成对(零拍摄学习)之间翻译。
translated by 谷歌翻译
单频语音分离在过去几年中经历了很大的进展。然而,为大量扬声器训练神经言语分离(例如,超过10个扬声器)对当前方法遥不可及,依赖于置换不变丢失(PIT)。在这项工作中,我们提出了一种私奔不变的培训,采用匈牙利算法,以便用$ o(c ^ 3)$时间复杂度训练,其中$ c $是扬声器的数量,与$ o相比(c!)基于坑的方法。此外,我们提出了一种可以处理增加数量的扬声器的修改后的架构。我们的方法将高达20美元的发言者分开,并通过广泛的保证金提高了以上的额外费用的前面的结果。
translated by 谷歌翻译